iT邦幫忙

2024 iThome 鐵人賽

DAY 10
0
自我挑戰組

與 AI 共舞:打造更高效的日常系列 第 10

AI 驅動的 Podcast 摘要系統(1.5)

  • 分享至 

  • xImage
  •  

前言

在上一篇文章 AI 驅動的 Podcast 摘要系統(1) 中,我分享了如何運用 AI 技術打造一個解決 Podcast 摘要生成挑戰的計畫。隨著 Podcast 節目數量爆炸性成長,挑選出值得一聽的內容變得越來越困難。雖然我目前使用的訂閱工具 Podwise 表現不錯,但對於重度聽眾來說,標準方案的額度仍然不夠。因此,我決定設計並開發一套自動生成 Podcast 摘要的系統,透過語音轉文字、內容分析與摘要生成的流程,來提升效率並降低成本。

系統目標與實作初衷

這套系統的核心目標,是讓使用者能夠快速掌握 Podcast 節目的重點,從而提升整體的聆聽體驗。今天,我終於邁出了實作的第一步。然而,過程中也遇到了一些技術上的挑戰,特別是在取得 Podcast 音檔並將其提供給 Whisper AI 進行語音轉文字處理方面。

自動化流程的探索

一開始,我的構想是先將 Podcast 的音檔下載下來,接著上傳到支援 S3 的服務,再將公開的 S3 URL 提供給線上的 Whisper AI 進行轉錄。為此,我快速測試了兩套自動化流程平台:n8n 與 Dify.AI。雖然 Dify.AI 專注於 AI 流程設計,但在處理 S3 操作時顯得有些繁瑣,需要直接呼叫 Web API。相較之下,n8n 提供了現成的 S3 模組,讓整個操作過程更加簡便,因此我選擇了 n8n 來實現自動化流程。

我的初步設想是,使用者可以透過 HTTPie 或 Postman 等工具上傳檔案,然後 n8n 將檔案上傳到 S3,設為公開,並取得公開的 S3 URL,接著提供給 Whisper API 進行轉錄。這樣一來,我便能獲取 Podcast 節目的轉錄文本。整個流程看似美好,我也迅速在 DigitalOcean 上建立了一組 Spaces Object Storage,並在 n8n 很快地串好了整個流程,簡單來說就是一組 Webhook 串接 S3 檔案上傳,如下圖所示:

https://ithelp.ithome.com.tw/upload/images/20240920/20168288npo1hz3dFp.png

https://ithelp.ithome.com.tw/upload/images/20240920/20168288oIFWKNdwdX.png

意外的發現與反思

然而,當我準備測試這一流程時,才驚覺自己忽略了一個關鍵點:Podcast 的背後技術其實是 RSS,而 RSS 本身已經提供了節目音頻檔案公開訪問的 URL。因此,實際上並不需要花費大量時間下載音頻檔案,再經由 n8n 上傳到 S3。這個步驟無疑是「多此一舉」,完全畫蛇添足。

換句話說,今天的努力全部白費了。我本來只需編寫一個簡單的腳本,提取 RSS XML 中指定節目的音頻檔案 URL,即可直接進行轉錄,並利用 LLM 來生成摘要。這次的經歷讓我明白,有時候看似複雜的流程,其實可以簡化許多。

下一步計畫

基於今天的學習,我決定暫時放下繁瑣的流程,專注於撰寫這篇文章,檢討自己的錯誤,並記錄今天遇到的問題。明天週末,我將花時間順過整個流程,確保它能以最小可行產品(MVP)的方式順利運作。

今天的探索雖然遇到了挫折,但也為未來的開發提供了寶貴的經驗。期待在接下來的日子裡,能夠逐步完善這套系統,為廣大 Podcast 愛好者帶來更便捷的聆聽體驗。

今天就先分享到這裡,感謝閱讀!


上一篇
AI 驅動的 Podcast 摘要系統(1)
下一篇
AI 驅動的 Podcast 摘要系統(2)
系列文
與 AI 共舞:打造更高效的日常30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言